为了阐明消失梯度引起的平台现象,我们在本文中分析了多层的渐变子空间附近的随机梯度下降的稳定性。在Fukumizu-Amari模型的随机梯度下降中,这是呈现非琐碎的高原现象的最小多层摄影,我们表明(1)吸引地区存在于繁殖的子空间中,(2)强大的平台现象作为噪音出现 - 在确定性梯度下降中未观察到的同步,(3)存在最佳波动,以最小化退化子空间的逃生时间。预计本文观察到的噪声引起的变性将在广泛的机器学习中找到通过神经网络。
translated by 谷歌翻译
Generative models, particularly GANs, have been utilized for image editing. Although GAN-based methods perform well on generating reasonable contents aligned with the user's intentions, they struggle to strictly preserve the contents outside the editing region. To address this issue, we use diffusion models instead of GANs and propose a novel image-editing method, based on pixel-wise guidance. Specifically, we first train pixel-classifiers with few annotated data and then estimate the semantic segmentation map of a target image. Users then manipulate the map to instruct how the image is to be edited. The diffusion model generates an edited image via guidance by pixel-wise classifiers, such that the resultant image aligns with the manipulated map. As the guidance is conducted pixel-wise, the proposed method can create reasonable contents in the editing region while preserving the contents outside this region. The experimental results validate the advantages of the proposed method both quantitatively and qualitatively.
translated by 谷歌翻译
有了来自多个输入模式的信息,基于传感器融合的算法通常在机器人技术中表现出其单模式的表现。带有互补语义和深度信息的相机和激光镜头是复杂驾驶环境中检测任务的典型选择。但是,对于大多数摄像头融合算法,传感器套件的校准将极大地影响性能。更具体地说,检测算法通常需要多个传感器之间的准确几何关系作为输入,并且通常假定这些传感器的内容是同时捕获的。准备此类传感器套件涉及精心设计的校准钻机和准确的同步机制,并且制备过程通常是离线进行的。在这项工作中,提出了一个基于分割的框架,以共同估计摄像机套件校准中的几何和时间参数。首先将语义分割掩码应用于传感器模式,并通过像素双向损失优化校准参数。我们专门合并了来自光流的速度信息,以进行时间参数。由于仅在分割级别进行监督,因此在框架内不需要校准标签。提出的算法在KITTI数据集上进行了测试,结果显示了几何和时间参数的准确实时校准。
translated by 谷歌翻译
降低(DR)在高维数据的视觉分析中起着至关重要的作用。 DR的主要目的是揭示隐藏的模式,这些模式位于固有的低维歧管上。但是,当歧管被某些有影响力的数据属性严重扭曲或隐藏时,DR通常会忽略重要模式。本文介绍了一个功能学习框架FEALM,旨在为非线性DR生成优化的数据投影集,以便在隐藏的歧管中捕获重要模式。这些投影产生了最大不同的最近邻居图,因此由此产生的DR结果显着差异。为了获得这种功能,我们设计了一种优化算法,并引入了一种新的图形差异度量,称为邻居形状差异。此外,我们开发交互式可视化,以帮助比较获得的DR结果和每个DR结果的解释。我们通过使用合成数据集和对现实世界数据集的多个案例研究进行实验来证明FEALM的有效性。
translated by 谷歌翻译
我们建议使用标准化流作为汉密尔顿蒙特卡罗(HMC)的分子动力学中的可训练内核。通过学习(可逆)的转换,简化了我们的动态,我们可以在生成独立配置时优于传统方法。我们表明,使用精心构造的网络架构,我们的方法可以轻松地扩展到大型晶格卷,并刷新工作。我们实施的源代码在HTTPS://github.com/nftqcd/fthmc上公开可用。
translated by 谷歌翻译
扩散张量成像(DTI)已被用于研究神经退行性疾病对神经途径的影响,这可能导致这些疾病的更可靠和早期诊断,以及更好地了解它们如何影响大脑。我们介绍了一种基于标记为DTI光纤数据和相应统计数据的智能视觉分析系统,用于研究患者组。系统的AI增强界面通过组织和整体分析空间引导用户,包括统计特征空间,物理空间和不同组的患者的空间。我们使用自定义机器学习管道来帮助缩小此大型分析空间,然后通过一系列链接可视化务实拨动它。我们使用来自Parkinson进展标记倡议的研究数据库的实际数据进行多种案例研究。
translated by 谷歌翻译